Identification de documents par classification monoclasse

نویسندگان

Nicolas Sidere

Jean-Yves Ramel

Sabine Barrat

Vincent Poulain D'Andecy

Saddok Kebairi

چکیده

RÉSUMÉ. Utilisée dans un contexte industriel, la classification d’images de documents nécessite le respect de certaines contraintes; par exemple, être confronté à une grande variabilité des documents et/ou du nombre de classes. Dans cet article, nous répondons à ce problème en présentant une nouvelle approche basée sur la spécialisation du vecteur de caractéristiques et d’un classificateur pour chaque classe, contrairement à la majorité des méthodes qui traitent l’ensemble des classes. Cette approche permet alors d’introduire de nouvelles classes sans contraindre le système à un nouvel apprentissage. Pour cela, nous calculons un vecteur de caractéristiques générique qui sera ensuite spécialisé en classant les caractéristiques selon un score de stabilité. Finalement, un classificateur monoclasse de type K plus proche voisins est entrainé en utilisant ce vecteur. Les expérimentations menées révèlent de bons taux de classification prouvant une adaptabilité de notre système sur des problèmes complexes.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

La Classification non Supervisée (Clustering) de Documents Textuels par les Automates Cellulaires

Résumé : Dans cet article nous présentons un automate cellulaire (Class_AC) pour résoudre un problème de text mining en l’occurrence la classification non supervisée (Clustering). Avant de procéder à l’expérimentation par l’automate cellulaire, nous avons vectorisés nos données en procédant à l’indexation des documents textuels provenant de la base de donnée REUTERS 21578 par l’approche Wordnet...

متن کامل

Classification de documents XML à partir d'une représentation linéaire des arbres de ces documents

Résumé. Cet article présente un nouveau modèle de représentation pour la classification de documents XML. Notre approche permet de prendre en compte soit la structure seule, soit la structure et le contenu de ces documents. L’idée est de représenter un document par l’ensemble des sous-chemins de l’arbre XML de longueur comprise entre n et m, deux valeurs fixées a priori. Ces chemins sont ensuit...

متن کامل

Contribution à la classification d'images satellitaires par approche variationnelle et équations aux dérivées partielles

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Classification de documents Amélioration de la co-similarité pour la classification de documents

La classification conjointe d’objets et de leur descripteurs – par exemple de documents avec les mots les composant – encore appelée co-classification, a été largement étudiée ces dernières années, car elle permet d’extraire des classes plus pertinents, qu’elle soit explicite ou latente. Dans de précédents travaux (Bisson & Hussain, 2008), nous avons proposé une méthode de calcul simultané des ...

متن کامل

Regroupements non-disjoints de mots pour la classification de documents

RÉSUMÉ. La classification automatique de documents est un domaine d’étude en plein essor dans le domaine du Traitement et de la Recherche d’Information (RI). Dans un cadre supervisé, il s’agit alors d’entraîner un modèle de classifieur sur un corpus de documents étiquetés. La difficulté majeure consiste à représenter les documents par un nombre limité et suffisant d’attributs. Dans cet article,...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2014

Identification de documents par classification monoclasse

نویسندگان

چکیده

منابع مشابه

La Classification non Supervisée (Clustering) de Documents Textuels par les Automates Cellulaires

Classification de documents XML à partir d'une représentation linéaire des arbres de ces documents

Contribution à la classification d'images satellitaires par approche variationnelle et équations aux dérivées partielles

Classification de documents Amélioration de la co-similarité pour la classification de documents

Regroupements non-disjoints de mots pour la classification de documents

عنوان ژورنال:

اشتراک گذاری